GeneDock HG WES 手册

Part 1 产品介绍

1. GeneDock HG WES 人全外显子组标准化分析服务用途

GeneDock HG WES使用BWA、Sentieon软件,对外显子组(或者panel)数据,进行从fastq到vcf的分析(包含SNV和INDEL),同时对原始序列 (FASTQ) 和比对后序列 (BAM) 的基本计量参数进行统计。

外显子组测序(Whole exome sequencing,WES)是指使用二代测序技术(NGS)对外显子的所有区域进行测序。相比与全基因组测序,全外显子组比进行全基因组序列测序更简便、经济、高效,其目标区域覆盖度也更高,便于变异检测。

Sentieon DNAseq 是一款类似于GATK (The Genome Analysis Toolkit) 的软件,主要用于二代测序数据的变异分析,包括SNV和INDEL。GeneDock的生信团队与数据计算团队共同努力,在数据传输优化、分析算法选择、计算资源选型等方面都进行了优化,并对分析关键步骤做了分布式处理,在保证同GATK鉴定结果准确度一致的基础上,大大降低了用户的分析成本,缩短了运行时间。

Sentieon是一款类似于GATK (The Genome Analysis Toolkit) 的软件,主要用于二代测序数据的变异分析,包括SNP和INDEL。Benchmark测试结果 (https://peerj.com/preprints/1672/)显示,Sentieon软件在保证同GATK 3.3软件鉴定结果准确度一致的基础上,比GATK 3.3速度提升了约20倍(相同的硬件设备)。
且该软件获得
Winner, precisionFDA Consistency Challenge
Winner, precisionFDA Truth Challenge

更多信息:Sentieon官方网站:《 Sentieon DNAseq, for consistent and confident germline variant detection》

2. 整体步骤:

整体可分为4个部分:

1. 序列比对(Mapping):使用trimmomatic软件进行前处理,使用bwa mem进行比对,使用samtools对bam文件进行排序、格式转换等操作。

2. Bam文件前处理(Bam processing):使用Sentieon软件做去重复序列(rmdup)、INDEL Realignment(realign)、Base quality score recalibration(bqsr)。

3. SNV和INDEL检测(SNP and INDEL calling):使用Sentieon软件的HaplotypeCaller(hc)对SNP和INDEL同时进行检测。

4. 变异优化(Callset Refinement):使用Sentieon软件的VQSR对varaint quality score做矫正(此步骤SNP和INDEL分别进行)。

5. 对原始序列 (FASTQ) 和比对后序列 (BAM) 的基本计量参数进行统计:原始序列 (FASTQ)统计包括Reads数目、N所占比例、低质量碱基的比例、Q20、Q30、与Adaptor相关的reads比例,以及质量值和GC含量图等。比对后序列 (BAM)的统计包括:靶标区域所占比例、平均测序深度、重复区域比例、比对率、不同X数reads所占比例,以及目标区域测序深度图等,具体图表格式可以参考GeneDock 博客

流程中步骤与GATK的Best Practices基本一致。

关于其中使用的knowsites输入文件也与GATK软件一致,可以参考这个链接

【运行时间】

2017年7月17日biolam_105测试3.95GB+4.00GB的fastq.gz文件。深圳域:3小时。

由于全外显子组数据较全基因组数据要小,本工作流采用利用“fastq按行拆分、bam不拆分”的原理,使得运行时间较短,运行成本也较低。

【准确性评估】

本流程步骤与GATK的GATK best practice基本一致,准确性评估请参考这个链接

【注意事项】

  1. 本流程需要是双端测序。
  2. 流程中会使用GATK官方推荐的reference、knowsites输入文件,下载自Broad的FTP
  3. 如果输入fq文件是多个lane的,请注意read1和read2的顺序要一一对应。

关于此流程有任何问题,请您随时与我们的工程师联系。

Part 2 GeneDock HG WES操作教程

1.查看工作流详情:进入后台后,点击左侧工具栏中的工作流,在我的工作流标签中选择public,可以看到WES_Germline_BWA_Sentieon_ContainRef_stat工作流,点击“详情”,查看该工作流的介绍,包括:【概述】、【基本背景】、【整体步骤】、【运行时间】、【准确性评估】、【注意事项】等(如图1,图2);


图-1

(图1)



图-2
(图2)

2.设置输入、输出及参数,运行工作流及查看结果同HG操作教程

Part 3 参数解释

本工作流中使用的工具及参数与HG工作流一致。